研究报告

多性状遗传解析的层级推断框架:整合Genomic SEM、PLEIO与Primo的统一估计体系  

方宣钧
海南省农作物分子育种重点实验室, 海南省热带农业资源开发利用研究所, 三亚, 572025, 海南, 中国
作者    通讯作者
计算分子生物学, 2026 年, 第 15 卷, 第 6 篇   
收稿日期: 2026年04月20日    接受日期: 2026年05月23日    发表日期: 2026年06月04日
© 2026 BioPublisher 生命科学中文期刊出版平台
这是一篇采用Creative Commons Attribution License进行授权的开放取阅论文。只要对本原作有恰当的引用,版权所有人允许和同意第三方无条件的使用与传播。
推荐引用:

方宣钧, 2026, 多性状遗传解析的层级推断框架:整合Genomic SEM、PLEIO与Primo的统一估计体系, 计算分子生物学, 15(1): 1-15 (10.5376/cmb.2026.15.0001) (Fang X.J., 2026, A hierarchical inference framework for multi-trait genetics integrating genomic SEM, PLEIO, and primo, Fenzi Zhiwu Yuzhong (Molecular Plant Breeding), 24(1): 1-15 (doi: 10.5376/cmb.2026.15.0001))

摘要

复杂性状通常呈现显著的遗传相关性与多效性结构,但传统单性状GWAS难以区分共享因果效应与由连锁不平衡、样本结构或中介关系引起的表观相关。本研究将多性状分析从方法整合提升为以估计对象(estimand)为核心的统一统计遗传框架,构建“协方差结构—位点配置—关联模式”的层级推断体系。在该框架下,Genomic SEM用于刻画跨性状遗传协方差与潜在共享因子,PLEIO在局部连锁不平衡结构中执行联合精细定位以解析因果配置,而Primo通过贝叶斯混合模型分解跨性状关联模式并量化共享与特异效应。三类方法分别对应不同推断层级的核心估计对象,形成从结构重建到效应分解的递进式证据链。进一步地,本研究结合模拟与实证分析,系统评估多变量方法在不同遗传相关、LD结构与样本重叠条件下的偏倚—方差权衡,明确多性状分析在功效提升与假阳性控制之间的适用边界。研究强调,应通过局部遗传相关、联合精细定位、共定位分析、效应方向一致性与跨祖源验证构建多证据整合流程,以区分真实多效性与表观相关。基于上述理论,提出“筛—证—用”的操作路径:先以全基因组与局部遗传相关筛选性状组合,再以PLEIO与Primo解析共享结构,并结合共定位与条件分析验证因果一致性,最终通过Genomic SEM扩展共享信号并连接网络层功能解释。该框架在作物遗传改良与人类疾病研究中均具有良好的可迁移性,为复杂性状从统计关联走向机制解析与应用转化提供系统化方法基础。

关键词
多性状遗传分析;多效性;遗传相关系数(rg);Genomic SEM;联合精细定位;贝叶斯混合模型;共定位分析;因果推断

1 引言

多性状在遗传层面的相关性并非例外,而是复杂生物系统的常态。从作物性状到人类疾病谱系,不同表型之间往往表现出稳定的协变结构。例如产量与抗逆性在发育与资源分配层面存在耦合,人群中的代谢性状与精神疾病也呈现显著的跨表型遗传相关。这类相关既可能源于单一遗传变异对多个性状的共同作用(多效性, pleiotropy),也可能反映紧密连锁位点或中介路径所产生的统计关联。大规模汇总分析已系统证明跨性状遗传相关的广泛存在,并揭示相当比例的变异在多个表型间共享信号,从而使“共享遗传结构”的刻画成为复杂性状解析中的基础问题。

 

在统计层面,这种共享结构通常通过遗传相关系数(genetic correlation, rg)或更一般的遗传协方差矩阵∑g表达。然而,传统单性状GWAS以逐性状独立检验为基本范式,其估计对象(estimand)局限于“单一性状的边际效应”,难以直接刻画跨性状的联合结构。一方面,对于在多个性状中呈现弱效但方向一致的遗传信号,单变量分析往往功效不足;另一方面,将多个性状结果事后整合,不仅无法恢复原始协方差结构,还容易受到样本重叠、测量误差及环境混杂的影响,从而放大由连锁不平衡(LD)或中介路径引起的“表观多效性”。更为关键的是,在忽略协方差结构的情况下,效应估计与标准误将偏离其真实分布,进而影响多性状风险预测与选择指数在育种与精准医学中的可转移性。这一局限既反映了统计遗传学由假设驱动的定位分析向全基因组关联建模演进的整体趋势,也进一步凸显了在单性状GWAS之外构建更高层次推断框架的必要性(Fang and Wu, 2026)。

 

针对上述局限,多变量统计框架逐步发展,其核心不在于同时分析多个性状,而在于将跨性状遗传结构本身作为估计对象。现有方法大体可归纳为三类互补范式。其一,Genomic SEM以遗传协方差矩阵为输入,在潜变量层面重构共享与特异成分,从而将跨性状相关结构外显为可检验的模型参数(Grotzinger et al., 2019);其二,PLEIO在位点层面对多性状效应进行联合建模,在LD约束下评估共享与特异因果配置,提高局部信号分辨率;其三,Primo基于贝叶斯混合模型,将变异在不同性状组合上的“关联模式”作为基本单位,直接给出共享与特异效应的后验概率(Gleason et al., 2020)。尽管三类方法在实现上差异显著,但其共同目标并非估计因果效应,而是刻画跨性状共享遗传架构的统计形态。

 

需要强调的是,多性状分析所识别的“共享信号”并不等同于因果意义上的多效性。真实多效性(shared causal variant)与由LD、因果链式中介或结构混杂引起的表观相关在统计上往往难以区分。换言之,多变量模型回答的是“是否存在共享遗传结构”,而非“该结构是否对应单一因果机制”。因此,若将多性状结果直接解释为因果关系,可能系统性放大假阳性风险。近期研究逐步形成共识,多性状方法应与位点精细定位、共定位分析以及因果推断方法(如MR)结合,构建分层证据体系,以在共享结构与因果机制之间建立可审计的连接。

 

基于这一认识,本研究将多性状解析重新置于统计遗传学因果推断框架之中,将Genomic SEM、PLEIO与Primo分别视为结构层、位点层与模式层的估计工具,明确其对应的估计对象与适用边界,并提出“结构重建—联合定位—模式分解”的分析路径。在此基础上,进一步引入共定位与因果检验作为下游约束,形成从相关结构到因果解释的递进式证据链。该框架旨在为多性状遗传分析提供统一的估计语言与决策逻辑,从而在作物改良与人类疾病研究中,实现由统计关联向因果解释的稳健过渡。

 

2 多性状与多效性的统计背景

2.1 遗传相关性的估计

多性状分析的出发点在于刻画不同表型之间的遗传依赖结构。在统计意义上,这一结构通常通过遗传相关系数rg或更一般的遗传协方差矩阵∑g表示,其反映的是加性遗传效应在不同性状之间的共变程度。与单性状分析关注“某一变异对单一表型的边际效应”不同,多性状框架的基本估计对象是跨性状的联合遗传结构本身。

 

在实践中,遗传相关的估计主要依赖两类路径:基于个体数据的混合模型方法与基于摘要统计的回归方法。前者以双性状GREML为代表,直接在混合线性模型中对遗传方差—协方差进行分解;后者以跨性状LD Score Regression(LDSC)为代表,通过利用LD结构与GWAS统计量之间的期望关系,在摘要层面推断遗传协方差。

 

在个体层分析中,双性状GREML通常假设两性状k∈{1,2}的表型满足:

 

yk=Xkβk+gk+ek

 

其中gk表示加性遗传效应,其联合分布可写为:

 

 

由此可直接估计遗传协方差矩阵∑g,并得到:

 

 

该方法在样本量充足时具有较高精度,并允许灵活控制协变量与扩展模型结构(如多环境或多群体)。但其对个体级数据的依赖,使其在跨队列整合与隐私受限场景中应用受限,同时对祖源结构与亲缘关系的建模较为敏感(Zhang et al., 2015)。

 

相比之下,跨性状LDSC在摘要统计层面进行估计。其基本思想是利用每个标记的LD评分

 

回归两性状GWAS统计量乘积的期望:

 

E[z1jz2j]=a+blj

 

其中斜率b与遗传协方差成正比,截距a吸收由样本重叠与群体结构引入的非遗传相关。该方法无需个体数据,适用于大规模多队列整合,但其有效性依赖于LD参考面板与模型近似的适用性。

 

需要注意的是,全基因组平均的rg往往掩盖局部层面的异质性。局部遗传相关方法(如 HESS、LAVA)以及分层LDSC可进一步将共享信号分解至特定基因组区域或功能注释,从而为后续的位点级分析提供更精细的先验信息。这类分解不仅提升了生物学解释力,也为共定位与因果分析提供了更具针对性的候选区域。在实际应用中,应同时报告样本重叠、祖源构成及其控制策略,以避免将结构性偏差误解为真实的共享遗传效应(Zhang et al., 2015)。

 

2.2 真多效性与表观多效性的区分

在多性状分析中,一个核心问题是区分“真实共享效应”与“统计层面的表观相关”。前者通常被称为真多效性,即同一因果变异对多个性状产生直接或经中介的影响;后者则来源于连锁不平衡、群体结构、样本重叠或未建模的因果路径等因素。

 

从证据角度看,真多效性往往表现为多性状信号在位点层面的高度一致性。例如,跨性状共定位结果显示共享因果变异的高后验概率,可信集合之间存在显著重叠,效应方向在不同性状间具有一致性或符合明确的生物学机制。此外,在控制潜在混杂因素后,这类信号通常具有较好的跨人群稳定性。联合精细定位、贝叶斯共定位及潜变量模型(如Genomic SEM)可作为不同层级的交叉验证手段(Zhang et al., 2015)。

 

相比之下,表观多效性更可能表现为不稳定或依赖特定分析条件的关联模式。例如,不同因果变异处于同一LD区间可能导致信号在空间上重叠,但在精细定位后呈现分离;样本重叠或群体结构可使跨性状统计量产生人为相关;未显式建模的中介路径也可能引入间接关联。这类信号通常对LD参考与人群构成较为敏感,并在跨祖源分析中表现出不一致性(Wang et al., 2024)。

 

因此,对多效性的判定不应依赖单一分析步骤,而应建立分层的证据体系。一般而言,可首先通过全基因组或局部遗传相关识别潜在共享结构,在候选区域开展联合精细定位或共定位分析评估共享信号的可能性,随后结合条件分析与效应方向一致性进行区分,并通过跨祖源验证或敏感性分析检验结果的稳健性。只有在多层证据一致的情况下,才更有理由将共享信号解释为真实的多效性(Wang et al., 2024)。

 

3 基因组结构方程模型(Genomic SEM)

3.1 方法原理

Genomic SEM的核心在于将多性状遗传相关结构显式建模,从而将跨性状协方差转化为可检验的结构参数。在这一框架中,分析对象不再是单一性状的边际效应,而是由遗传协方差矩阵∑g所刻画的共享遗传结构。

 

其实现通常分为两个阶段。首先,通过跨性状LDSC或类似方法估计遗传方差—协方差矩阵S,并同时获得反映样本重叠与结构偏差的采样协方差;随后,在潜变量层面对该矩阵进行结构方程建模,典型形式为:

 

g=ΛF+ε

 

其中F表示潜在因子(共享遗传成分), Λ为因子载荷,残差项ε则对应性状特异效应。该模型通过DWLS或广义最小二乘进行拟合,并可通过模型比较指标(如χ²、CFI、RMSEA)评估结构合理性(Grotzinger et al., 2019)。

 

在位点层面,Genomic SEM将每个SNP的多性状效应向量投影至潜在因子空间,得到对应的“共享结构效应” βFj。与此同时,QSNP统计量用于检验该位点是否偏离“仅通过共同因子作用”的假设。需要强调的是,QSNP所反映的是模型拟合层面的异质性,而非直接的因果路径证据,其意义在于识别那些不完全符合共享结构的位点,从而为后续分析提供候选区域。

 

因此,该框架的核心作用在于,将跨性状的遗传相关结构外显为潜在因子,并在此基础上评估位点效应与结构之间的一致性,而非直接推断因果机制。

 

3.2 应用场景

在多性状共病研究中,例如肥胖、2型糖尿病与血脂异常,Genomic SEM常用于构建“代谢共因子”,并在该因子上执行GWAS,从而提高对共享遗传基础的检出能力。与此同时,通过QSNP识别偏离共同结构的位点,可进一步提示潜在的特异通路,为疾病分层或药物靶点探索提供线索。

 

在精神疾病研究中,该方法常用于建模跨诊断的广义遗传易感性,同时保留疾病特异路径以解释临床异质性。在作物遗传学中,类似框架可用于解析“生长—产量—抗逆”之间的资源分配与发育权衡,通过潜在因子分离共性适应位点与性状特异位点。此外,在多环境数据下,可进一步将环境效应引入模型,从而评估基因×环境对共享结构的影响(Grotzinger et al., 2019)。

 

3.3 优势与局限

Genomic SEM的主要优势在于其对结构层面的直接建模能力。相比传统方法,其不仅能够提高在多性状一致效应情形下的统计功效,还能够通过潜在因子与异质性统计将共享与特异效应加以区分。同时,依托摘要统计与采样协方差的联合建模,该方法能够在一定程度上处理样本重叠与量纲差异,从而适用于跨队列整合分析。

 

然而,该方法的推断质量依赖于前期协方差估计的准确性,LD参考与祖源不匹配可能导致偏差在模型中累积。此外,随着性状数量增加,模型复杂度与参数不确定性迅速上升,结构选择与参数可辨识性对结果具有重要影响(Grotzinger et al., 2018)。

 

更为关键的是,Genomic SEM所刻画的是跨性状的共享遗传结构,而非因果关系本身。当潜在因子结构与真实生物机制不一致时,模型可能将由连锁不平衡或中介路径产生的相关误解释为共享通路。因此,其结果应与位点级精细定位、共定位分析以及因果推断方法(如MR)结合使用,以构建多层证据体系。

 

在这一背景下,位点级异质性(如QSNP)可作为识别候选复杂信号的重要指标,但其解释需依赖后续分析验证,而不应单独作为因果推断依据(图1)。

 

 

图1 多性状结构建模与位点级异质性在因果推断框架中的定位

注: 本图展示了基因组结构方程模型(Genomic SEM)在统计遗传学因果推断流程中的作用定位。分析以GWAS摘要统计为起点,首先通过LD Score Regression(LDSC)等方法估计跨性状遗传协方差矩阵(∑g),随后在潜变量层面建模共享遗传成分(latent factor)与性状特异效应(residual)。在位点层面,将SNP效应投影至潜在因子空间,得到共享结构效应(βF),同时利用QSNP统计量评估该位点是否偏离“仅通过共同因子作用”的假设,从而刻画位点级异质性。需要强调的是,这些结果反映的是跨性状共享遗传结构,而非因果关系本身;具有异质效应的位点仅作为后续分析的候选信号。因此,需结合共定位分析与孟德尔随机化(MR)等方法,对信号一致性与潜在因果关系进行进一步评估。本图强调,Genomic SEM属于结构层推断方法,在整体因果推断框架中处于上游环节

Figure 1 Positioning multi-trait structural modeling and locus-level heterogeneity within the causal inference framework

Note: This figure illustrates the role of Genomic Structural Equation Modeling (Genomic SEM) in the multi-layered process of causal inference in statistical genetics. Starting from GWAS summary statistics, cross-trait genetic covariance (∑g) is first estimated using methods such as LD Score Regression (LDSC). Genomic SEM then models this covariance structure through latent factors representing shared genetic components and residual terms capturing trait-specific effects. At the locus level, SNP effects are projected onto the latent factor space to obtain shared component effects (βF), while the QSNP statistic quantifies deviations from the common factor model, reflecting locus-level heterogeneity. Importantly, these outputs characterize shared genetic structure rather than causal relationships. SNPs showing heterogeneous effects may represent candidates for further investigation but do not, on their own, establish causal mechanisms. Consequently, downstream analyses such as colocalization and Mendelian randomization (MR) are required to evaluate signal consistency and potential causal effects. The figure emphasizes that Genomic SEM operates at the level of structural inference, serving as an upstream component within a broader causal inference pipeline

 

4 PLEIO:多性状联合精细定位

4.1 方法原理

PLEIO的核心目标是在位点层面刻画多性状之间的共享遗传信号结构。在这一框架中,分析对象不再是单一性状的边际关联,而是同一基因组区域内跨性状效应的联合分布及其可能的共享模式。

 

方法以多性状GWAS摘要统计为输入,在局部LD结构约束下,对每个位点的效应向量进行联合建模。形式上,给定LD矩阵 以及性状间的协方差结构 ,位点 的跨性状统计量可视为来自如下混合分布:

 

Zj(0,Σ) (无效应)或N (μj​) (存在效应)

 

其中μj​表示该位点对不同性状的真实效应,经样本量与尺度标准化后体现为观测统计量的偏移。

 

在具体实现中,PLEIO通过对局部区域内不同效应配置(如跨性状共享、性状特异或无效应)进行离散搜索或近似推断(如EM或变分方法),并利用联合似然比或贝叶斯因子评估不同配置的相对支持度。需要强调的是,这些配置反映的是统计意义上的共享模式,而非直接的因果结构。

 

为提高稳健性,方法通常对性状间协方差结构进行显式建模,并通过引入拦截项处理样本重叠与群体结构带来的相关性。同时,稀疏或结构化先验有助于稳定弱信号下的估计(Hackinger and Zeggini, 2017; Lee et al., 2020; Lee et al., 2021)。

 

因此,PLEIO的本质是在LD约束下对“跨性状信号是否共享”进行位点级建模,为后续因果分析提供候选结构。

 

4.2 优势

在多个性状存在一致或部分一致遗传效应时,联合建模能够显著提升检测能力。相比单性状精细定位,PLEIO通过利用跨性状相关结构,使多个弱信号在联合框架中累积,从而提高对潜在共享位点的识别能力。

 

此外,该方法在位点层面提供更细粒度的解析能力。通过整合跨性状信息,可使后验概率更加集中,从而缩小可信集合范围,降低LD背景噪声对结果的干扰。这一点在复杂性状中尤为重要,因为单性状信号往往难以区分真实效应与LD拖尾。

 

PLEIO还具有较好的适用性,可同时处理定量性状与二元性状,并允许在模型中引入功能注释信息,从而实现“多性状×功能注释”的联合建模。这种整合有助于在复杂调控网络中识别具有一致生物学意义的关键位点(Lee et al., 2020)。

 

4.3 局限

尽管PLEIO在位点层分析中具有优势,其推断仍高度依赖输入协方差结构与LD参考的准确性。当性状之间的真实关系由不同因果变异在LD区间内产生时,模型可能将其误解释为共享信号,从而增加假阳性风险。此外,跨祖源LD差异或协方差估计偏差(如样本重叠未充分校正)也可能放大表观相关。

 

在性状层面,不同测量尺度(如病例对照与定量性状)或强烈的环境交互效应会降低效应可比性,从而影响联合模型的稳定性。为此,通常需要对统计量进行标准化,并采用稳健先验(如稀疏或重尾分布)以降低异常值的影响。

 

从计算角度看,随着性状数量与候选位点数量增加,可能的效应配置呈指数增长,导致推断复杂度显著提高。因此,在实际应用中通常需通过窗口划分、限制因果位点数量或采用近似推断方法,在精度与计算效率之间进行权衡(Hackinger and Zeggini, 2017; Lee et al., 2020)。

 

更为重要的是,PLEIO所识别的是跨性状的共享信号模式,而非因果关系本身。因此,其结果应与共定位分析及孟德尔随机化等方法结合使用,以进一步验证信号一致性与潜在因果路径。在整体框架中,PLEIO可被视为连接“结构层(Genomic SEM)”与“因果层(MR)”之间的关键位点级模块。

 

5 Primo:多变量贝叶斯混合模型

5.1 模型逻辑

Primo的核心思想是将多性状遗传关联刻画为一组离散的模式分布,而非单一的共享或特异效应。在该框架中,每个遗传变异不再被简单归类为是否关联,而是被赋予在不同性状组合上的关联概率,从而形成对跨性状遗传结构的概率表示。

 

具体而言,对于K个性状,Primo将每个位点的效应模式表示为一个二元向量Yj​∈{0,1}K,对应2K种可能的关联配置。例如,模式[1, 1, 0...]表示该变异对前两个性状存在效应而对其他性状无效应。在摘要统计层面,给定跨性状协方差矩阵∑,SNP j的统计量zj可建模为:

 

Zj|Yj=p~N(0, ∑+Vp)

 

其中Vp为与模式P对应的效应方差结构。

 

在此基础上,Primo通过引入模式先验πp,利用EM算法、变分推断或马尔可夫链方法估计各模式的后验概率:

 

PMPjp = Pr (Yj=p|zj)

 

进一步地,可通过对模式集合求和得到不同类型信号的边际概率,例如:

 

 

这一框架的关键在于,它并不直接判定因果结构,而是对跨性状关联模式进行概率分解,从而提供关于共享与特异效应的分布性描述。

 

为增强模型表达能力,Primo通常引入层级先验,将功能注释(如组织特异表达或调控元件)纳入模式概率的建模中,或对效应量施加相关结构先验,以允许不同性状间存在方向一致或相反的效应(Gleason et al., 2020)。

 

5.2 应用

在多性状分析中,Primo提供了一种从位点集合过渡到模式分布的视角,使得遗传信号可以按照共享或特异模式进行系统分类。基于模式后验概率,可对不同类型信号分别进行富集分析,例如评估共享效应是否在特定组织或调控元件中富集,从而为功能解释提供支持。

 

此外,模式后验概率可作为统一评分指标,用于跨性状信号的优先级排序。通过区分“共享优先”与“性状特异优先”的候选集合,并结合功能注释与效应方向信息,可构建更具解释性的候选位点列表。在实际流程中,常先在全基因组范围筛选高后验概率位点,再结合局部精细定位方法进一步压缩可信集合。

 

需要强调的是,这类分析提供的是模式层面的统计证据,其解释应结合位点级与结构层结果,以形成多层证据体系。

 

5.3 优势与局限

Primo的主要优势在于其对跨性状模式的直接建模能力。相比仅区分“共享/不共享”的方法,该框架能够对不同类型的多效性进行细粒度刻画,并通过后验概率提供统一的量化尺度,从而支持严格的统计控制与结果比较。

 

同时,该方法能够自然整合功能注释信息,使得统计证据与生物学先验在同一框架中融合,从而提升结果的解释性与潜在应用价值。

 

然而,该框架也存在若干限制。首先,模式空间随性状数呈指数增长,导致计算复杂度迅速增加,需要通过近似推断或结构约束进行简化。其次,模型对协方差结构与LD参考较为敏感,若祖源不匹配或样本重叠未充分校正,可能将LD引起的相关误判为共享信号。

 

此外,模式先验的设定及其可辨识性问题可能影响后验概率的稳定性,在弱信号或高异质性场景中尤为明显。因此,Primo的结果应与结构层方法(如Genomic SEM)及位点层方法(如PLEIO)结合使用,以提高推断的稳健性。

 

更为重要的是,Primo提供的是跨性状关联模式的概率表示,而非因果关系本身。其结果应作为后续共定位与因果推断分析的输入,而不应直接解释为共享因果机制(图2)。

 

 

图2 跨性状关联模式的概率分解与网络映射:从位点分布到功能解释

注: 本图展示了Primo框架下跨性状遗传关联的模式层表示。分析从SNP层面的统计量出发,将变异映射至包含所有性状组合的模式空间,并计算各模式的后验概率(PMP)。随后通过模式聚合区分共享效应与性状特异效应,并在此基础上开展功能富集与网络层解释。需要强调的是,该框架刻画的是统计关联模式,而非因果关系,需结合共定位与孟德尔随机化等方法进行进一步因果推断

Figure 2 Probabilistic decomposition of cross-trait association patterns and their network-level interpretation

Note: This figure illustrates the pattern-level representation of cross-trait genetic associations using the Primo framework. Starting from SNP-level summary statistics, variants are mapped into a high-dimensional pattern space representing all possible combinations of trait associations. Posterior probabilities (PMPs) quantify the likelihood of each pattern and are subsequently aggregated into shared and trait-specific components. These components are used for downstream functional enrichment and network-based interpretation. Importantly, this framework characterizes statistical patterns of association rather than causal relationships, and therefore requires integration with downstream methods such as colocalization and Mendelian randomization for causal inference

 

6 网络层面的多性状解释:从关联模式到功能结构(统一estimand框架)

6.1 跨性状信号的功能富集与结构化表达

在多性状分析框架中,位点层面的统计证据(无论来自Genomic SEM的因子效应、PLEIO的位点级联合信号,还是Primo的模式后验概率)本质上仍停留在关联结构的层面,其解释对象是跨性状效应的分布与模式,而非生物学机制本身。因此,需要将这些结果系统性地投射至基因集、通路乃至网络层级,以获得具备操作性的生物学解释。

 

在这一过程中,关键的估计对象由“位点效应”转变为“功能集合层面的富集强度与结构偏好”。具体而言,首先需将位点或可信集合映射至基因层,这一映射不应依赖单一策略(如最近基因),而应结合eQTL、染色质互作、调控注释及三维基因组信息,从而尽可能逼近真实调控单元。在此基础上,可构建跨性状的基因评分矩阵,并区分来源于不同证据层级的输入(如共享效应与特异效应)。

 

随后,在基因集或通路层面开展富集分析时,应显式控制LD结构与基因特征(如长度、SNP密度)的偏倚,同时将“共享信号”与“性状特异信号”分层处理,以区分两类不同的生物学问题:前者对应潜在的共通调控机制,后者则指向性状分化路径。进一步地,通过分层LDSC或注释加权模型,可以评估不同功能注释(组织、细胞类型、发育阶段)对共享与特异信号的差异贡献,从而形成跨性状的功能富集谱(Pei et al., 2019; Demetci et al., 2021; Pan et al., 2025)。

 

需要强调的是,这一层级的推断仍然属于结构性解释(structural interpretation),其结果反映的是信号在功能空间中的分布模式,而非因果机制本身。

 

6.2 网络拓扑中的多性状信号整合

相比于基因集分析,网络方法进一步引入拓扑结构,将离散信号转化为连续的结构化模式。在蛋白互作网络(PPI)、共表达网络、转录调控网络以及染色体空间结构网络中,可以通过信号传播(如随机游走或扩散模型)将弱效应整合为模块级信号,从而缓解多性状信号碎片化的问题(Momen et al., 2019; Wu et al., 2020)。

 

在这一过程中,估计对象进一步转变为网络模块的跨性状负荷与结构中心性。通过社区检测与中心性分析,可以识别在多个性状之间共享的关键节点或模块,这些结构往往代表潜在的调控汇聚点或功能瓶颈。进一步地,在多层网络(不同组织或环境)或超图结构中,可以通过张量分解或多模态聚类方法,揭示“性状—组织—功能模块”之间的高阶对应关系。

 

然而,网络层解释同样面临重要的识别挑战。由于LD结构与群体分层可能在输入层引入相关性,若不加控制,网络传播可能放大这种表观相关,从而产生虚假的模块收敛。因此,在实施过程中需结合置换检验(匹配LD与节点度分布)、多祖源验证以及共定位筛选,对输入信号进行严格约束(Demetci et al., 2021; Pan et al., 2025)。因此,网络分析的结果应被理解为关联信号在拓扑空间中的组织形式,而非直接的因果路径。

 

6.3 案例一:作物多性状网络中的共享与权衡结构

在作物遗传学中,产量与抗逆性状往往同时表现出协同与权衡关系。通过多性状分析,可首先识别共享位点和性状特异位点,随后将其投射到调控根系结构、渗透调节、激素信号传导(如ABA、BR和乙烯)以及光合效率的功能网络中。

 

例如,在干旱或盐胁迫背景下,共享信号通常沿“胁迫感知—信号传导—资源分配”轴呈现模块化聚集,而权衡位点则更多出现在生长与抗性之间的分支节点(Momen et al., 2019)。

 

在引入环境信息后,网络结构可以扩展为多层表示,其中不同环境对应不同层级。通过比较模块在不同环境中的稳定性,可区分跨环境保守的核心调控模块与环境特异模块。这种结构为育种决策提供了新的视角,优先选择对网络整体稳定性扰动较小的变异,可能在提高产量的同时维持抗逆性。这一策略本质上是将多性状选择问题从单一性状优化转变为网络约束下的多目标优化问题(Pan et al., 2025)。

 

6.4 案例二:人类代谢性状的网络收敛结构

在人类复杂性状中,代谢综合征相关表型(如BMI、T2D、血脂等)展示出明显的跨性状遗传重叠。通过多变量方法识别共享与特异信号后,将其映射至跨组织调控网络(肝脏、脂肪、骨骼肌),通常可以观察到若干关键通路的收敛,例如胰岛素信号、脂质代谢与炎症反应(Pei et al., 2019)。

 

在网络层面,这些通路往往表现为模块级聚集,其中共享信号集中于调控核心,而性状特异信号则偏向于外围路径。例如,T2D特异信号更多涉及胰岛β细胞功能,而血脂特异信号则与脂蛋白代谢相关。

 

进一步地,可在模块层级引入因果推断工具(如MR或中介分析),检验不同通路之间的方向性关系,从而将网络结构与因果路径进行衔接(Wu et al., 2020)。此外,将药物靶点投射至网络中,可以基于其在共享模块中的位置及跨组织中心性,构建多性状可转化性评价指标,为药物再定位提供依据(Demetci et al., 2021)。

 

6.5 小结:网络层的定位与边界

综上,网络层分析在多性状框架中的核心作用,是将位点与模式层的统计结果组织为结构化的功能图景,其估计对象可概括为功能集合的富集强度;网络模块的跨性状负荷;关键节点的拓扑重要性。

 

但必须明确,这一层级仍然停留在结构解释而非因果推断。其主要价值在于,提供跨性状共享机制的候选结构;指导后续因果分析(如共定位与MR);为实验验证与应用转化提供优先级排序。因此,网络层应被视为连接统计模式与因果机制的中间桥梁,而非终点。

 

7 偏倚—方差权衡与方法选择:多变量推断的风险函数视角

7.1 统一仿真框架与估计对象对齐

在多性状遗传分析中,不同方法并非仅在实现上存在差异,其本质区别在于所针对的估计对象不同。Genomic SEM侧重于潜在结构层的共享遗传因子效应,PLEIO针对位点层的联合效应与因果配置,而Primo则刻画跨性状关联模式的概率分布。因此,对方法性能的评估不应仅停留在检出率或显著性层面,而应围绕各自估计对象的偏倚—方差特性展开。

 

为此,可构建统一的仿真框架,在控制参数空间内系统评估三类方法。关键设计因素包括:遗传相关强度()、LD结构复杂度(单峰/多峰、强/弱LD、祖源匹配与否)、因果位点密度与配置、效应方向(同向/反向/混合)、样本量及重叠比例,以及误差分布与测量误差。通过在真实或模拟基因型背景下生成多性状GWAS摘要统计,并分别应用三类方法,可在统一标准下评估其风险函数表现(如偏倚、方差、均方误差、覆盖率及错误发现控制)。

 

在这一框架下,偏倚—方差权衡呈现出清晰规律:结构更灵活的模型(如Primo或高维SEM)在能够更好拟合复杂真实机制时,通常降低结构性偏倚,但在有限样本或复杂LD条件下方差显著上升;相对受约束的模型则具有较低方差,但可能因模型错配而产生系统偏差(Liu and Rhemtulla, 2021; Ranglani, 2024)。因此,方法性能必须在“模型适配性”与“估计稳定性”之间进行权衡。

 

7.2 不同遗传结构下的方法行为与诊断

在多性状共享结构较强(中高rg, 效应方向一致)的情形下,Genomic SEM的因子GWAS与PLEIO的联合建模通常能够有效整合信息,从而降低估计方差并提高检出功效。然而,这种优势依赖于“共享结构假设”的成立,一旦真实结构偏离该假设(如存在反向效应或多因果配置),模型偏倚将迅速放大。

 

在效应稀疏且共享/特异混杂的情形中,Primo通过显式建模模式空间,往往在错误发现控制方面更为稳健,尽管其检出率可能略有下降。尤其在“紧密连锁但因果不同”的场景下,基于共享假设的位点联合方法更易产生假阳性,而模式分解方法与条件分析策略通常表现出更高的稳健性。

 

当存在显著异质性(如效应方向相反或跨祖源LD结构差异)时,Genomic SEM中的公共因子模型可能出现错配,此时异质性统计(如QSNP)可作为重要诊断信号,提示需要结合位点级分析或外部证据进行修正。类似地,样本重叠与LD参考偏差会系统性影响所有方法的估计方差与错误率,因此必须通过拦截项校正与敏感性分析加以控制。总体而言,不同方法在不同结构假设下的表现差异,反映了其对应估计对象的适用边界,而非简单的“优劣之分”。

 

7.3 实证验证:从统计性能到生物学一致性

在真实数据中,方法性能的评估需同时考虑统计指标与生物学解释力。在作物系统中,可利用多环境表型数据(如产量, 开花期与抗逆性状)构建多性状分析框架。通过全基因组与局部遗传相关筛选候选区域后,可比较PLEIO与Primo在共享信号识别与可信集合压缩方面的表现,并结合跨环境重复性与功能注释作为外部验证。进一步,通过Genomic SEM构建潜在因子并开展因子GWAS,可检验其与位点层结果的一致性,从而评估结构层与位点层推断的协调性。

 

在人类复杂性状中(如代谢综合征相关表型),多变量分析通常揭示显著的共享遗传结构。在此基础上,Genomic SEM可提升功效并强化通路富集信号,PLEIO可提高位点分辨率,而Primo则能够区分共享与特异模式。通过引入eQTL共定位、药物靶点注释或跨祖源重复,可从生物学一致性角度验证不同方法的结果(Chen et al., 2023)。这种“统计性能—生物学一致性”双维度评估,有助于避免单纯依赖统计显著性的误判。

 

7.4 方法选择的原则:基于估计对象的决策框架

基于上述分析,方法选择应围绕研究问题对应的估计对象展开,而非依赖经验性偏好。当研究目标是识别共享遗传结构或潜在通路时,Genomic SEM与PLEIO更为合适;当关注共享与特异效应的分型与稳健性控制时,Primo提供更直接的概率框架;在复杂或异质背景下,应优先采用对模型假设依赖较弱的方法,并结合多方法交叉验证。

 

在实践中,可采用分层分析策略,首先利用遗传相关筛选可联合分析的性状集合,其次在候选区域内通过PLEIO与Primo进行位点与模式层交叉验证,最后在确认的共享结构上应用Genomic SEM进行全基因组扩展分析。该流程实现了从结构识别到信号扩展的逐层推进。

 

7.5 报告规范与可重复性

为保证结果的可解释性与可复现性,建议在报告中统一呈现以下内容:各方法对应估计对象的定义与适用范围;偏倚、方差与均方误差等关键统计指标;可信集合长度与跨祖源一致性;样本重叠与LD参考的处理方式及敏感性分析;多效性类型(真实/表观)的证据分级。同时,应提供完整的分析流程与参数设置,以支持结果复现与方法比较(Chen et al., 2023; Ranglani, 2024)。

 

8 讨论:多性状推断的层级整合与方法边界

多性状分析的核心优势在于利用性状间的协方差结构进行信息整合,从而在统计功效与生物学解释之间建立更紧密的联系。然而,这种“借力”并非无条件成立,其有效性依赖于不同层级估计对象的正确匹配与解释边界的严格区分。

 

在结构层,当性状间存在中等以上遗传相关(如rg)且效应方向大体一致时,Genomic SEM通过潜在因子模型能够在全基因组层面聚合信号,从而提高检测能力并揭示共享遗传结构。在位点层,PLEIO通过联合建模在局部LD窗口内整合跨性状证据,有助于压缩可信集合并提高弱效位点的可识别性。而在模式层,Primo通过后验概率对“共享—特异”结构进行分解,将分散的弱信号重组为具有解释力的概率模式(Turley et al., 2018)。三者在不同层级上形成互补:分别对应结构、位点与模式的估计对象。

 

这种层级化优势在实际应用中已得到验证。在作物遗传改良中,多性状模型通过整合产量与抗逆性状,能够提高预测精度并优化选择策略(Velazco et al., 2019; Bhatta et al., 2020);在人类遗传学中,多性状联合分析显著增加了可检测位点数量并提升多基因风险评分的解释力(Turley et al., 2018)。这些结果共同表明,多变量框架能够更敏感地捕捉共享遗传基础,并在通路或网络层面呈现结构收敛。

 

然而,多性状分析同样放大了推断风险,尤其是在“伪多效性”问题上。紧密连锁但因果不同的变异、祖源差异导致的LD失配、样本重叠以及测量误差,均可能使表观相关被误解释为共享因果。这些因素在多性状情境下通过协方差结构被放大,从而影响各层级推断结果。此外,方法复杂度随性状数量迅速增加:Genomic SEM的模型可辨识性、PLEIO的配置搜索以及Primo的指数级模式空间,均对计算资源与参数稳定性提出挑战(Lozano et al., 2023)。

 

更重要的是,不同性状的量纲与分布差异(如二元性状与定量性状、强G×E效应)会直接影响协方差估计与效应比较,从而影响所有后续分析。因此,多性状分析的可靠性不仅依赖于方法本身,也依赖于输入数据的一致性与质量控制。

 

在未来发展方向上,一个关键趋势是从“单层证据”向“跨层一致性”过渡。首先,在协方差层,应发展能够捕捉非线性或分层相关结构的估计方法,并结合全基因组与局部遗传相关信息,以提高结构推断的精度。其次,在位点层,应将联合精细定位与共定位分析常规化,通过可信集合重叠与共享后验概率评估“共享因果”的稳健性。再次,在模型层,应将样本重叠、LD参考与潜变量设定纳入系统性敏感性分析框架。进一步,在多祖源与多组学背景下,应通过跨祖源重复与功能注释整合,避免将中介路径误判为水平多效性。最后,在因果层,应将孟德尔随机化与中介分析嵌入多性状框架,以区分“共享因果”与“因果链式效应”,形成可操作的判别标准。

 

在应用层面,作物与人类系统虽具有不同的数据结构与研究目标,但在方法整合路径上呈现出一致性。在作物育种中,多性状框架有助于解析“增产—稳健”的权衡关系:Genomic SEM识别资源分配的公共因子,PLEIO定位关键通路中的候选位点,Primo区分共享与特异结构,从而支持基于网络约束的多指标选择策略(Velazco et al., 2019; Bhatta et al., 2020; Mbebi et al., 2025)。在人类医学中,类似框架可用于代谢综合征或精神疾病谱系研究:因子GWAS揭示跨性状易感性,PLEIO提高位点分辨率,Primo提供模式分型与功能注释整合,从而为药物靶点优先级排序提供依据(Turley et al., 2018)。

 

综上,多性状分析并非单一方法的替代,而是一种跨层级的推断体系。其有效应用依赖于明确各方法对应的估计对象,并在结构、位点、模式与因果层之间建立一致的证据链。同时,标准化的稳健性评估与跨祖源验证,是提升结果可重复性与外推能力的关键前提。

 

9 结论

本研究将多性状统计遗传分析从“方法并列使用”推进为“分层估计对象驱动的统一推断框架”。在该框架下,Genomic SEM、PLEIO与Primo不再被视为功能重叠的替代工具,而是分别对应于不同层级的核心估计对象:前者刻画性状间的遗传协方差结构与潜在共享因子,后两者则在位点与模式层面刻画跨性状效应的配置与分解。由此,跨性状分析形成从“结构层→位点层→模式层”的递进式证据体系,而非单一统计检验的延伸。

 

在此基础上,多性状框架的价值不再局限于统计功效提升,而体现在对遗传结构的可分解表达:一方面,通过潜在因子与联合建模增强弱信号的检测能力;另一方面,通过后验模式与局部定位,将共享与特异效应明确区分,并在通路与网络层面呈现收敛或分流结构。这种“检测—分解—重构”的过程,使跨性状遗传信号能够从分散关联转化为具有生物学组织性的解释单元,为作物改良与疾病机制研究提供更具可操作性的候选空间。

 

然而,多性状推断的可靠性依赖于对“多效性”的严格辨识。所谓共享信号,既可能源于同一因果变异(真多效性),也可能来自连锁不平衡、样本结构或中介链条所诱导的表观相关。本研究强调,应将局部遗传相关、联合精细定位与共定位分析、效应方向一致性以及跨祖源或家系验证等证据整合为常规流程,并辅以系统性的敏感性分析与FDR控制,从而在统计层面与生物学层面同时约束推断边界。

 

在实践路径上,建议以“筛—证—用”的层级化流程组织分析:首先在全基因组与局部尺度上筛选具有共享遗传背景的性状组合;随后在候选区域通过PLEIO与Primo进行互证,并结合条件分析与共定位检验区分共享与特异结构;最终在确认的共享结构上,利用Genomic SEM开展因子层面的全基因组扩展,并将结果输入网络富集与功能解释框架,服务于育种决策或药物靶点优先级排序。

 

总体而言,多性状统计框架的核心不在于联合分析本身,而在于是否能够在不同推断层级上保持估计对象的一致性与解释边界的清晰性。在严格报告偏倚—方差权衡、LD与祖源匹配以及样本结构影响的前提下,多性状方法有望从相关性检测工具,逐步发展为连接遗传结构、分子机制与可转化应用的关键桥梁,从而推动复杂性状遗传研究由“关联描述”向“机制解析”稳步过渡。

 

作者贡献

方宣钧是本研究的执行人,完成文献调研、数据分析以及论文初稿的写作与修改。作者本人已阅读并同意最终的文本。

 

致谢

本研究由国家自然科学基金重大项目(30490254)资助。

 

参考文献

Bhatta M., Gutiérrez L., Cammarota L., Cardozo F., Germán S., Gómez-Guerrero B., Pardo M., Lanaro V., Sayas M., and Castro A., 2020, Multi-trait genomic prediction model increased the predictive ability for agronomic and malting quality traits in barley (Hordeum vulgare L.), G3: Genes, Genomes, Genetics, 10(3): 1113-1124.

https://doi.org/10.1534/g3.119.400968

 

Chen Z., Zhang J., Sarro F., and Harman M., 2023, A comprehensive empirical study of bias mitigation methods for machine learning classifiers, ACM Transactions on Software Engineering and Methodology, 32(4): 1-30.

https://doi.org/10.1145/3583561

 

Demetci P., Cheng W., Darnell G., Zhou X., Ramachandran S., and Crawford L., 2021, Multi-scale inference of genetic trait architecture using biologically annotated neural networks, PLoS genetics, 17(8): e1009754.

https://doi.org/10.1101/2020.07.02.184465

 

Fang X.J., and Wu W.R., 2026, Evolution of statistical genetic paradigms: from linkage analysis and candidate gene strategies to GWAS, Molecular Plant Breeding, 24(9): 2817-2829.

 

Gleason K., Yang F., Pierce B., He X., and Chen L., 2020, Primo: Integration of multiple GWAS and omics QTL summary statistics for elucidation of molecular mechanisms of trait-associated SNPs and detection of pleiotropy in complex traits, Genome Biology, 21(1): 236.

https://doi.org/10.1186/s13059-020-02125-w

 

Grotzinger A.D., Rhemtulla M., de Vlaming R., Ritchie S.J., Mallard T.T., Hill W.D., Ip H.F., Marioni R.E., McIntosh A.M., Deary I.J., Koellinger P.D., Harden K.P., Nivard M.G., and Tucker-Drob E.M., 2018, Genomic SEM provides insights into the multivariate genetic architecture of complex traits, bioRxiv, 2018: 305029.

https://doi.org/10.1101/305029

 

Grotzinger A.D., Rhemtulla M., de Vlaming R., Ritchie S.J., Mallard T.T., Hill W.D., Ip H.F., Marioni R.E., McIntosh A.M., Deary I.J., Koellinger P.D., Harden K.P., Nivard M.G., and Tucker-Drob E.M., 2019, Genomic structural equation modelling provides insights into the multivariate genetic architecture of complex traits, Nature human behaviour, 3(5): 513-525.

https://doi.org/10.1038/s41562-019-0566-x

 

Hackinger S., and Zeggini E., 2017, Statistical methods to detect pleiotropy in human complex traits, Open Biology, 7(11): 170125.

https://doi.org/10.1098/rsob.170125

 

Lee C., Shi H., Pasaniuc B., Eskin E., and Han B., 2020, A method to map and interpret pleiotropic loci using summary statistics of multiple traits, bioRxiv, 2020: 155879.

https://doi.org/10.1101/2020.06.16.155879

 

Lee C., Shi H., Pasaniuc B., Eskin E., and Han B., 2021, PLEIO: A method to map and interpret pleiotropic loci with GWAS summary statistics, The American Journal of Human Genetics, 108(1), 36-48.

https://doi.org/10.1016/j.ajhg.2020.11.017

 

Liu S., and Rhemtulla M., 2021, Treating random effects as observed versus latent predictors: The bias–variance tradeoff in small samples, British Journal of Mathematical and Statistical Psychology, 75(1): 158-181.

https://doi.org/10.1111/bmsp.12253

 

Lozano A., Ding H., Abe N., and Lipka A., 2023, Regularized multi-trait multi-locus linear mixed models for genome-wide association studies and genomic selection in crops, BMC Bioinformatics, 24(1): 399.

https://doi.org/10.1186/s12859-023-05519-2

 

Mbebi A., Mercado F., Hobby D., Tong H., and Nikoloski Z., 2025, Advances in multi-trait genomic prediction approaches: classification, comparative analysis, and perspectives, Briefings in Bioinformatics, 26(3): bbaf211.

https://doi.org/10.1093/bib/bbaf211

 

Momen M., Campbell M., Walia H., and Morota G., 2019, Utilizing trait networks and structural equation models as tools to interpret multi-trait genome-wide association studies, Plant Methods, 15(1): 107.

https://doi.org/10.1186/s13007-019-0493-x

 

Pan Q., Bauters M., Peaucelle M., Ellsworth D., Kattge J., and Verbeeck H., 2025, Network-informed analysis of a multivariate trait-space reveals optimal trait selection, Communications Biology, 8(1): 569.

https://doi.org/10.1038/s42003-025-07940-0

 

Pei G., Sun H., Dai Y., Liu X., Zhao Z., and Jia P., 2019, Investigation of multi-trait associations using pathway-based analysis of GWAS summary statistics, BMC Genomics, 20(Suppl 1): 79.

https://doi.org/10.1186/s12864-018-5373-7

 

Ranglani H., 2024, Empirical analysis of the bias–variance tradeoff across machine learning models, Machine Learning and Applications: An International Journal, 11(4): 1-15.

https://doi.org/10.5121/mlaij.2024.11401

 

Turley P., Walters R.K., Maghzian O., Okbay A., Lee J.J., Fontana M.A., Nguyen-Viet T.A., Wedow R., Zacher M., Furlotte N.A., 23andMe Research Team, Social Science Genetic Association Consortium, Magnusson P., Oskarsson S., Johannesson M., Visscher P.M., Laibson D., Cesarini D., Neale B.M., and Benjamin D.J., 2018, Multi-trait analysis of genome-wide association summary statistics using MTAG, Nature Genetics, 50(2): 229-237.

https://doi.org/10.1038/s41588-017-0009-4

 

Velazco J.G., Jordan D.R., Mace E.S., Hunt C.H., Malosetti M., and van Eeuwijk F.A., 2019, Genomic prediction of grain yield and drought-adaptation capacity in sorghum is enhanced by multi-trait analysis, Frontiers in Plant Science, 10: 997.

https://doi.org/10.3389/fpls.2019.00997

 

Wang X., Wang J., Xia X., Xu X., Li L., Cao S., Hao Y., and Zhang L., 2024, Effect of genotyping errors on linkage map construction based on repeated chip analysis of two recombinant inbred line populations in wheat (Triticum aestivum L.), BMC Plant Biology, 24(1): 306.

https://doi.org/10.1186/s12870-024-05005-8

 

Wu Y., Cao H., Baranova A., Huang H., Li S., Cai L., Rao S., Dai M., Xie M., Dou Y., Hao Q., Zhu L., Zhang X., Yao Y., Zhang F., Xu M., and Wang Q., 2020, Multi-trait analysis for genome-wide association study of five psychiatric disorders, Translational Psychiatry, 10(1): 209.

https://doi.org/10.1038/s41398-020-00902-6

 

Zhang L., Li H., and Wang J., 2015, Linkage analysis and map construction in genetic populations of clonal F1 and double cross, G3: Genes, Genomes, Genetics, 5(3): 427-439.

https://doi.org/10.1534/g3.114.016022

计算分子生物学
• 第 15 卷
阅览选项
. 全文 PDF
. 全文 HTML
读者评论
. 评论
作者的其他论文
.
方宣钧
相关论文
.
多性状遗传分析
.
多效性
.
遗传相关系数( rg )
.
Genomic SEM
.
联合精细定位
.
贝叶斯混合模型
.
共定位分析
.
因果推断
服务
. 发表评论